Loading...
机构名称:
¥ 2.0

[52]。对文本理由的需求仍然至关重要,尤其是在技术采用取决于这一因素的安全领域[29]。考虑端到端自动驾驶的域[11],其中通常通过深层神经网络处理摄像头输入执行驾驶策略以发电控制命令。在VLM中的最新步伐具有固体变压器作为多模式学习者,在视觉问题(VQA)(VQA)(VQA)等任务中表现出了出色的表现,并强调了它们在复杂任务的强大表示方面的熟练程度[14]。倾斜视觉语言模型(VLM)进入自主驾驶领域,有望增强对这些系统的用户信任。我们的重点是仅视觉的端到端自动驾驶,旨在弥合数据驱动的决策和用户信任之间的差距。我们介绍了lingoqa,这是一种专为自动驾驶视频QA而设计的台式标记,它利用了一个包含419k QA对的新型数据集。通过其自由形式的问题和诉讼方法来区分,该数据集扩大了自动驱动视频质量质量质量检查的范围,涵盖了推理和行动的合理性。此外,我们发布了一个全面的评估套件,该评估套件由1,000个示例组成。在我们的基准标准的核心上是一个基于一个学识渊博的文本分类器Lingo-Gudge的新颖评估指标,其灵感来自真实的GPT法官[34]。评估代码和分类的权重将与纸张一起释放,以支持强大的板凳标记自动驾驶中的视频问题。We perform rigorous stud- ies correlating automatic metrics to human preferences and find that Lingo-Judge achieves a 0.950 Spearman and 0.993 Pearson correlation coefficient, surpassing existing auto- mated labelling techniques like METEOR [ 5 ], BLEU [ 40 ], CIDEr [ 49 ], and GPT-4 [ 39 ] on our benchmark, while being fast enough for frequent runs during培训和发展。配备了此评估工具包,我们就关键组件及其在VLM中进行自动驾驶的融合进行了全面的经验研究。我们在第5节中的发现表明,最有效的方法涉及对配备Vicuna-1.5-7B的视觉语言模型的注意力层[13],均在动作和风景数据集上。此过程涉及在4秒内使用5个视频帧和一种晚期视频效果技术。我们的集体工作,跨越了LingoQA基准,视觉指导调查数据集和创新的评估指标,旨在推动语言提名的自主驾驶领域,为后续的研究和开发范围奠定了强大的基础。总结本文的主要贡献:

arxiv:2312.14115v2 [CS.RO] 2024年3月20日

arxiv:2312.14115v2 [CS.RO] 2024年3月20日PDF文件第1页

arxiv:2312.14115v2 [CS.RO] 2024年3月20日PDF文件第2页

arxiv:2312.14115v2 [CS.RO] 2024年3月20日PDF文件第3页

arxiv:2312.14115v2 [CS.RO] 2024年3月20日PDF文件第4页

arxiv:2312.14115v2 [CS.RO] 2024年3月20日PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥3.0
2024 年
¥3.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥13.0